SparkStreaming消费kafka中数据的方式有哪些?他们有什么区别? | 您所在的位置:网站首页 › kafka 消费间隔 › SparkStreaming消费kafka中数据的方式有哪些?他们有什么区别? |
前置知识点: discretized Stream 是ss里面最基础的一个抽象,代表着一个以时间为键的RDD序列。将时间作为键,RDD作为值的一个hash表,反映着持续性的数据流和经过各种spark原语操作而得出的结果数据流。 1.receiver接收器方式 使用kafka里面的一个高级API,将生产的数据放在receiver里面包装成DS进行处理,而receiver不断接受数据存放在executor内存里面,所有数据存放在spark中executor内存,但失败的情况下回丢失数据,为了容错,可以考虑启用WAL日志(存储在HDFS上),缺点是WAL日志相当于复制了一份数据,kafka本身也有备份机制,故数据冗余。 2.direct 方式 绕过 receiver接收器 周期性查询kafka,根据kafka里面partition和topic的最新offset,当job启动时, 直接读取一定范围的数据并将数据包装成DS给到SS处理,即ss不存放数据,而是在处理过程中直接使用 区别: 1.receiver方式依赖zookeeper记录偏移量,那么与SS的偏移量记录可能会存在不一致的情况,且WAL日志相当于复制了一份数据,kafka本身也有备份机制,故数据冗余。 2. direct的优点 (1)简化并行 receiver方式会创建多个kafka输入流,而direct方式实现了 spark分区和kafka分区一一对应,从kafka并行读取数据,便于理解。 (2)高效 省去WAL复制数据。 (3)exactly once semantic direct方式是直接在SS中记录checkpoint |
CopyRight 2018-2019 实验室设备网 版权所有 |